对异常域特定视频集的有效分析是一个重要的实践问题,在该问题中,最新的通用模型仍面临局限性。因此,希望设计基准数据集,以挑战具有其他约束的特定领域的新型强大模型。重要的是要记住,特定域的数据可能更嘈杂(例如,内窥镜或水下视频),并且通常需要更多经验丰富的用户才能有效搜索。在本文中,我们专注于从水下环境中移动相机拍摄的单次视频,这构成了研究目的的非平凡挑战。提出了新的海洋视频套件数据集的第一个碎片,用于用于视频检索和其他计算机视觉挑战。除了基本的元数据统计数据外,我们还基于低级特征以及所选密钥帧的语义注释提供了几个见解和参考图。该分析还包含实验,显示了检索受人尊敬的通用模型的局限性。
translated by 谷歌翻译
鉴于问题的复杂性,从各种传感器模式到高度纠缠的对象布局,再到多样化的项目属性和抓地力类型,因此对视觉驱动的机器人系统提出了重大挑战。现有方法通常从一个角度解决问题。各种项目和复杂的垃圾箱场景需要多种选择策略以及高级推理。因此,要构建可靠的机器学习算法来解决这项复杂的任务,需要大量的全面和高质量的数据。在现实世界中收集此类数据将太昂贵,时间过高,因此从可伸缩性角度来看。为了解决这个大型,多样化的数据问题,我们从最近的元素概念上的增长中获得了灵感,并引入了MetagraspNet,这是一种通过基于物理学的元合成构建的大规模的照片现实垃圾箱挑选数据集。所提出的数据集在82种不同的文章类型上包含217K RGBD图像,并具有完整的注释,可用于对象检测,Amodal感知,关键点检测,操纵顺序和平行jaw和真空吸尘器的Ambidextrous Grasp标签。我们还提供了一个真实的数据集,该数据集由超过2.3k全面注释的高质量RGBD图像组成,分为5个困难级别和一个看不见的对象,以评估不同的对象和布局属性。最后,我们进行了广泛的实验,表明我们提出的真空密封模型和合成数据集实现了最先进的性能,并将其推广到现实世界用例。
translated by 谷歌翻译
联合学习已被提议作为隐私的机器学习框架,该框架使多个客户能够在不共享原始数据的情况下进行协作。但是,在此框架中,设计并不能保证客户隐私保护。先前的工作表明,联邦学习中的梯度共享策略可能容易受到数据重建攻击的影响。但是,实际上,考虑到高沟通成本或由于增强隐私要求,客户可能不会传输原始梯度。实证研究表明,梯度混淆,包括通过梯度噪声注入和通过梯度压缩的无意化混淆的意图混淆,可以提供更多的隐私保护,以防止重建攻击。在这项工作中,我们提出了一个针对联合学习中图像分类任务的新数据重建攻击框架。我们表明,通常采用的梯度后处理程序,例如梯度量化,梯度稀疏和梯度扰动,可能会在联合学习中具有错误的安全感。与先前的研究相反,我们认为不应将隐私增强视为梯度压缩的副产品。此外,我们在提出的框架下设计了一种新方法,以在语义层面重建图像。我们量化语义隐私泄漏,并根据图像相似性分数进行比较。我们的比较挑战了文献中图像数据泄漏评估方案。结果强调了在现有联合学习算法中重新审视和重新设计对客户数据的隐私保护机制的重要性。
translated by 谷歌翻译
来自科幻小说的普通愿景是机器人将有一天居住在我们的物理空间中,感知世界,才能协助我们的物理劳动力,并通过自然语言与我们沟通。在这里,我们研究如何使用虚拟环境的简化设计如何与人类自然交互的人工代理。我们表明,与自我监督学习的模拟世界中的人类交互的模仿学习足以产生我们称之为MIA的多模式互动剂,这成功与非对抗人类互动75%的时间。我们进一步确定了提高性能的架构和算法技术,例如分层动作选择。完全,我们的结果表明,模仿多模态,实时人类行为可以提供具有丰富的行为的富含性的令人生意的和令人惊讶的有效手段,然后可以为特定目的进行微调,从而铺设基础用于培训互动机器人或数字助理的能力。可以在https://youtu.be/zfgrif7my找到MIA的行为的视频
translated by 谷歌翻译
联合学习(FL)是一种保护隐私的范式,其中多个参与者共同解决机器学习问题而无需共享原始数据。与传统的分布式学习不同,FL的独特特征是统计异质性,即,跨参与者的数据分布彼此不同。同时,神经网络解释的最新进展已广泛使用神经切线核(NTK)进行收敛分析。在本文中,我们提出了一个新颖的FL范式,该范式由NTK框架赋予了能力。该范式通过传输比常规FL范式更具表现力的更新数据来解决统计异质性的挑战。具体而言,通过样本的雅各布矩阵,而不是模型的权重/梯度,由参与者上传。然后,服务器构建了经验内核矩阵,以更新全局模型,而无需明确执行梯度下降。我们进一步开发了一种具有提高沟通效率和增强隐私性的变体。数值结果表明,与联邦平均相比,所提出的范式可以达到相同的精度,同时将通信弹的数量减少数量级。
translated by 谷歌翻译
Federated learning allows collaborative workers to solve a machine learning problem while preserving data privacy. Recent studies have tackled various challenges in federated learning, but the joint optimization of communication overhead, learning reliability, and deployment efficiency is still an open problem. To this end, we propose a new scheme named federated learning via plurality vote (FedVote). In each communication round of FedVote, workers transmit binary or ternary weights to the server with low communication overhead. The model parameters are aggregated via weighted voting to enhance the resilience against Byzantine attacks. When deployed for inference, the model with binary or ternary weights is resource-friendly to edge devices. We show that our proposed method can reduce quantization error and converges faster compared with the methods directly quantizing the model updates.
translated by 谷歌翻译
联合学习可以使远程工作人员能够协作培训共享机器学习模型,同时允许在本地保持训练数据。在无线移动设备的用例中,由于功率和带宽有限,通信开销是关键瓶颈。前工作已经利用了各种数据压缩工具,例如量化和稀疏,以减少开销。在本文中,我们提出了一种用于联合学习的预测编码的压缩方案。该方案在所有设备中具有共享预测功能,并且允许每个工作人员发送来自参考的压缩残余矢量。在每个通信中,我们基于速率失真成本选择预测器和量化器,并进一步降低熵编码的冗余。广泛的模拟表明,与其他基线方法相比,甚至更好的学习性能,通信成本可以减少高达99%。
translated by 谷歌翻译
虽然最近基于模型的盲目单图像超分辨率(SISR)的研究已经取得了巨大的成功,但大多数人都不认为图像劣化。首先,它们总是假设图像噪声obeys独立和相同分布的(i.i.d.)高斯或拉普拉斯分布,这在很大程度上低估了真实噪音的复杂性。其次,以前的常用核前沿(例如,归一化,稀疏性)不足以保证理性内核解决方案,从而退化后续SISR任务的性能。为了解决上述问题,本文提出了一种基于模型的盲人SISR方法,该方法在概率框架下,从噪声和模糊内核的角度精心模仿图像劣化。具体而言,而不是传统的i.i.d.噪声假设,基于补丁的非i.i.d。提出噪声模型来解决复杂的真实噪声,期望增加噪声表示模型的自由度。至于模糊内核,我们新建构建一个简洁但有效的内核生成器,并将其插入所提出的盲人SISR方法作为明确的内核(EKP)。为了解决所提出的模型,专门设计了理论上接地的蒙特卡罗EM算法。综合实验证明了我们对综合性和实时数据集的最新技术的方法的优越性。
translated by 谷歌翻译
盲图修复(IR)是计算机视觉中常见但充满挑战的问题。基于经典模型的方法和最新的深度学习(DL)方法代表了有关此问题的两种不同方法,每种方法都有自己的优点和缺点。在本文中,我们提出了一种新颖的盲图恢复方法,旨在整合它们的两种优势。具体而言,我们为盲IR构建了一个普通的贝叶斯生成模型,该模型明确描绘了降解过程。在此提出的模型中,PICEL的非I.I.D。高斯分布用于适合图像噪声。它的灵活性比简单的I.I.D。在大多数常规方法中采用的高斯或拉普拉斯分布,以处理图像降解中包含的更复杂的噪声类型。为了解决该模型,我们设计了一个变异推理算法,其中所有预期的后验分布都被参数化为深神经网络,以提高其模型能力。值得注意的是,这种推论算法诱导统一的框架共同处理退化估计和图像恢复的任务。此外,利用了前一种任务中估计的降解信息来指导后一种红外过程。对两项典型的盲型IR任务进行实验,即图像降解和超分辨率,表明所提出的方法比当前最新的方法实现了卓越的性能。
translated by 谷歌翻译
Few Shot Instance Segmentation (FSIS) requires models to detect and segment novel classes with limited several support examples. In this work, we explore a simple yet unified solution for FSIS as well as its incremental variants, and introduce a new framework named Reference Twice (RefT) to fully explore the relationship between support/query features based on a Transformer-like framework. Our key insights are two folds: Firstly, with the aid of support masks, we can generate dynamic class centers more appropriately to re-weight query features. Secondly, we find that support object queries have already encoded key factors after base training. In this way, the query features can be enhanced twice from two aspects, i.e., feature-level and instance-level. In particular, we firstly design a mask-based dynamic weighting module to enhance support features and then propose to link object queries for better calibration via cross-attention. After the above steps, the novel classes can be improved significantly over our strong baseline. Additionally, our new framework can be easily extended to incremental FSIS with minor modification. When benchmarking results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method achieves a competitive performance compared to existing approaches across different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current state-of-the-art FSIS method for 10/30-shot. We further demonstrate the superiority of our approach on Few Shot Object Detection. Code and model will be available.
translated by 谷歌翻译